针对中文零指代问题, 从篇章视角进行理论分析, 并完成中文篇章零元素语料库(Chinese Discourse Zero Corpus, CDZC)的构建工作。首先, 整理和分析已有的理论研究以及语料资源, 探究篇章层面中文零元素语料库标注的必要性。然后, 采用自底向上、前向搜索的标注策略和人机结合的半自动标注方式, 完成CDZC语料库的构建。最后, 对该语料库进行一系列详细的统计分析。结果表明, CDZC能够充分反映出中文零元素省略的语言特点, 为相关研究提供语料资源支持。
针对中文篇章中的零指代问题, 提出一种基于中英文可比较语料进行中文零指代识别和消解的方法, 并提出英文对等句的概念。利用对等句, 重新定义句子间隔, 并引入双语词对齐特征。在基准平台基础上, 从零指代项识别和零指代项消解两个方面进行研究。在 OntoNotes5.0 语料上的实验结果表明, 与目前性能最好的系统相比, 新提出的基于中英对等语料的中文零指代方法取得更好的性能。